ارائه الگویی جدید برای تشخیص واحدهای اسمی در زبان عربی

1397/08/28 11:57:19

تشخیص واحدهای اسمی به عنوان یکی از سامانه های پردازش زبان طبیعی عبارت است از تعیین اسامی خاص و طبقه بندی آن ها به یکی از گروه های شخص، مکان یا سازمان. این عملیات به دلیل تأثیر قابل توجه در بهبود کارآیی دیگر حوزه های پردازش زبان طبیعی مانند ترجمه ماشین، بازیابی اطلاعات، خوشه بندی نتایج جستجو و پرسش و پاسخ، در سال های اخیر مورد توجه قرار گرفته است. در این تحقیق یک سامانه تشخیص واحدهای اسمی در زبان عربی با تمرکز بر نثر کهن ارائه شده است. ما پکره متنی خود را جهت آموزش و ارزیابی مدل پیشنهادی بر اساس سه کتاب تاریخی ، روایی و فقهی تولید نموده ایم. مدل تشخیص ما بر اساس مجمع رده بندها و با روش بوستینگ آموزش داده شده و به منظور پیاده سازی ، الگوریتم آدابوست به کار گرفته شده است. عملیات برچسب گذاری ادات سخن و نشانه گذاری بر روی پیکره متنی به منظور غلبه بر موانع موجود در زبان عربی در تشخیص واحدهای اسمی انجام شده که نتایج حاکی از موثر بودن آن است. همچنین جهت انتخاب خصیصه ها از اطلاعات متنی و خاصیت توالی آن استفاده نموده ایم. ریخت شناسی غنی و پیچیدگی این زبان استخراج اسامی خاص را نسبت به زبان های لاتین دشوار می کند به همین جهت عملیات پیش پردازش بر روی مجموعه داده انجام شده است. در این مطالعه تمامی کارهای انجام شده در زبان عربی از طریق رویکرد یادگیری ماشین جمع آوری شده و مورد بررسی قرار گرفته است. تحقیقات نشان می دهد روش ما نه تنها در میان روش های عربی جدید است بلکه تاکنون در محدوده تشخیص واحدهای اسمی نیز به کار گرفته نشده است. نتیجه به دست آمده برای مدل ما در ارزیابی F-measure معادل ٩١/٩٠ درصد است. اگر چه ما برای پیاده سازی مدل، زبان عربی را به خدمت گرفته ایم اما روش ارائه شده مستقل از زبان است و می توان آن را در زبان های دیگر نیز مورد استفاده قرار داد.